LLM as a Judge 論文
https://scrapbox.io/files/65aef9ebd26c930025933e2e.png
論文情報
タイトル:Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
発行日:2023年6月
著者:Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica
所属:UC Berkeley
論文のポイント
この論文は、LLM as a judgeと人間の評価を比較したもの
MT-benchデータ(ライティング、推論、コーディングなどの80の質問)に対し、GPT-3.5, GPT-4, Claudeなどのモデルに回答を生成させる。その後、人間(大学院生)とGPT-4にどちらが良い回答か?を評価させ、2者間の一致率を調べるというもの。 結果は、Table5の通り、S2(引き分けなし)の場合、GPT-4が人間の専門家の間の合意レベルに匹敵する80%以上(85%)の合意率に達した
https://scrapbox.io/files/65cc2b8387c786002544e221.png
これは、人間同士の合意(81%)よりも高く、大多数の人間の意見と一致することを意味している
さらに、人間の選択がGPT-4と違った時に、GPT-4の判断を人間に伝えたところ、75%のケースでGPT-4の判断を妥当だと見なし34%のケースで選択を変更した。
https://scrapbox.io/files/65cc2a1cc918ed00259ae617.png
Chatbot Arenaから集めたデータに対しても、良好な結果が出た。
https://scrapbox.io/files/65bcce9934e9d50023ab6bee.png
この結果から、LLM-as-a-judge では、人手評価に匹敵するクオリティの評価を、お金や時間、労力をかけずに機械的に行えることが期待できる
LLMをjudgeとして使う時は、biasがある
位置バイアス
ほとんどのLLMは、最初の位置バイアスを好む
冗長性バイアス
LLMはより長い回答を好む
たとえ長い回答が、短いものより不正確で低品質であっても
自己強化バイアス
LLMは自分が生成した回答を好む傾向がある
正しこれに限り、確実にバイアスがあるかは不明とのこと
概要
大規模言語モデル(LLM)に基づくチャットアシスタントの評価は、その広範な能力と、人間の好みを測定する既存のベンチマークの不適切さにより困難です。これに対処するため、より開放的な質問においてこれらのモデルを評価するために強力なLLMを審査員として使用することを検討します。LLMを審査員として使用する際の利用と限界、位置、冗長性、自己強化のバイアス、限られた推論能力などを検討し、それらのいくつかを緩和するための解決策を提案します。その後、MT-bench(マルチターンの質問セット)とChatbot Arena(クラウドソーシングされたバトルプラットフォーム)という2つのベンチマークを導入することにより、LLM審査員と人間の好みとの間の一致を検証します。私たちの結果は、GPT-4のような強力なLLM審査員が、管理された人間の好みとクラウドソースされた人間の好みの両方によく一致し、人間の一致レベルと同じ80%以上の一致を達成することを明らかにしています。したがって、LLM-as-a-judgeは、非常に高価になる可能性のある人間の好みを近似するためのスケーラブルで説明可能な方法です。さらに、我々は、ベンチマークと従来のベンチマークが互いに補完することを示し、LLaMAとVicunaの複数のバリアントを評価します。 1 序論
監視されたインストラクションの微調整と人間のフィードバックによる強化学習(RLHF)を活用するLLMベースのチャットアシスタント(チャットボット)の数が急増しています。これにより、新しい指示に従う能力と会話能力が解放されます。人間と一致するように調整されたこれらのチャットモデルは、それらが構築された元の未調整モデルよりも人間のユーザーに強く好まれます。しかし、高まったユーザーの好みは、従来のLLMベンチマークでの改善されたスコアに必ずしも相関していません。MMLUやHELMのようなベンチマークは、これらの調整されたモデルと基本モデルの違いを効果的に見分けることができません。この現象は、チャットボットの有用性に対するユーザーの認識と、従来のベンチマークに採用されている基準との間に根本的な乖離があることを示唆しています。 私たちは、この乖離は主に、LLMのコア能力を限られたタスクセット(例えば、多肢選択知識や検索質問)でのみ測定する現在の評価方法に起因すると主張します。これは、マルチターンダイアログでの指示に正確に従う能力など、オープンエンドタスクでの人間の好みとの整合性を十分に評価していないためです。例として、Figure 1ではMMLUの質問に対する2つのモデルの会話履歴を示します。
https://scrapbox.io/files/65bc54dab5dbb7002592f947.png
2つのモデルは、微調整なしの事前学習ベースモデルであるLLaMA-13Bと、高品質な会話でLLaMA-13Bから微調整された我々のモデルであるVicuna-13Bです。ベースLLaMAモデルは従来のベンチマークで競争力のあるパフォーマンスを示していますが(表8)
https://scrapbox.io/files/65bc5a77205b290026c3a842.png
オープンエンドの質問への回答は人間に好まれることがあまりありません。この従来のベンチマークとの不一致は、この論文が取り組む核心的な問題を強調しています。つまり、LLMが人間の好みと整合するかを評価するための堅牢でスケーラブルな自動化方法が必要です。
これを研究するために、我々は主要評価指標として人間の評価を用いる2つのベンチマークを導入します。MT-benchとChatbot Arenaです。MT-benchは、チャットボットのマルチターン会話と指示に従う能力を評価する一連のオープンエンドの質問であり、これは人間の好みにとって2つの重要な要素です。MT-benchはまた、推論や数学など、コア能力に基づいてチャットボットを区別するよう慎重に構築されています。さらに、我々はChatbot Arenaを開発しました。これは、実世界のシナリオでのチャットボット間の匿名バトルを特徴とするクラウドソースされたプラットフォームです。ユーザーは2つのチャットボットと同時に会話を行い、個人的な好みに基づいてそれらの回答を評価します。 人間による評価は人間の好みを評価するためのゴールドスタンダードですが、非常に遅くて高価です。この評価を自動化するために、GPT-4のような最先端のLLMを人間の代理として使用することを検討します。これらのモデルはしばしばRLHFで訓練されているため、既に強い人間との整合性を示しています。このアプローチを「LLM-as-a-judge」と呼びます。このアプローチは、私たちの以前のブログ投稿や他の同時期または後続の作業で試されています。しかし、このアプローチに関する体系的な研究はまだ行われていません。
この論文では、LLM-as-a-judge(LLMを審査員として使用する)アプローチを人間による評価と比較して研究しています。LLM-as-a-judge アプローチのいくつかの潜在的な制限点、位置バイアス、冗長性バイアス、自己強化バイアス、限られた推論能力を検討します。我々は、これらのバイアスのいくつかが小さいか、軽減される可能性があることを示します。これらを対処すると、3Kの管理された専門家投票と野生での3Kのクラウドソースされた人間の投票の結果は、GPT-4 審査員が80%を超える合意率で人間の評価と一致することを検証し、人間対人間の合意レベルを達成しています(§4.2、表4)。
その結果、LLM-as-a-judge が人間の好みを迅速に評価するためのスケーラブルな方法であり、伝統的な人間による評価に代わる有望な代替手段であることが示唆されています。
この論文は2つの貢献をしています:
(1)LLM-as-a-judge の体系的な研究;
(2)MT-bench と Chatbot Arena からの高品質な質問と多様なユーザーインタラクションを含む人間の好みのデータセット。さらに、私たちは、将来のLLMベンチマークにおけるハイブリッド評価フレームワークの採用を主張します:既存の能力ベースのベンチマークと新しい好みベースのベンチマークをLLM-as-a-judgeと組み合わせることで、モデルのコア機能と人間との整合性の両方を迅速かつ自動的に評価できます。私たちは、将来の研究のために、80のMT-benchの質問、3Kの専門家の投票、および人間の好みを持つ30Kの会話を公開します。
2 MT-Bench と Chatbot Arena
2.1 動機
最近のLLMの進歩に伴い、LLMベースのアシスタントは、執筆やチャット、コーディングなど多様なタスクで人工一般知能を示し始めています。しかし、その幅広い能力を評価することもより困難になります。言語モデル用の数多くのベンチマークが利用可能にもかかわらず、これらは主に短い回答を伴うクローズドエンドの質問でモデルを評価することに焦点を当てています。これらのチャットアシスタントがマルチターンの対話でユーザーの指示に正確に従い、ゼロショットでオープンエンドの質問に答えることができるようになったため、現在のベンチマークはそのような能力を評価するには不十分です。既存のベンチマークは主に次の3つのカテゴリに分類されます。
コア知識
指示に従うベンチマーク:Flan、Self-instruct、NaturalInstructions、Super-NaturalInstructions などは、ややオープンエンドの質問とより多様なタスクに拡大し、Instruction TuningのLLMを評価するために使用されます。 会話型ベンチマーク:CoQA、MMDialog、OpenAssistant などは、私たちの意図した使用例に最も近いです。しかし、その質問の多様性と複雑さは、最新のチャットボットの能力に挑戦する点でしばしば不足しています。
既存のLLMベンチマークによって大きく見過ごされている人間の好みは、オープンエンドでマルチターンの人間-AIインタラクションでのチャットボットの有用性を直接測定するものです。このギャップを埋めるために、我々は人間の好みを評価するために特別に調整された2つの新しいベンチマークを導入します。同時に、これらのベンチマークは最先端モデルのコア機能を区別するように設計されています。
2.2 MT-Bench
我々は、80の高品質なマルチターンの質問からなるベンチマーク、MT-benchを作成しました。MT-benchは、共通の使用例をカバーし、モデルを区別するために挑戦的な質問に焦点を当てながら、マルチターンの会話と指示に従う能力をテストするように設計されています。ユーザープロンプトの8つの共通カテゴリーを特定し、その構築をガイドしました:執筆、ロールプレイ、抽出、推論、数学、コーディング、知識I(STEM)、知識II(人文科学/社会科学)。各カテゴリーに対して、10のマルチターンの質問を手動で設計しました。表1にはいくつかのサンプル質問が記載されています。 https://scrapbox.io/files/65bc7b1d358cc1002479d2d1.png
2.3 Chatbot Arena
私たちの2つ目のアプローチは、Chatbot Arena、匿名バトルを特徴とするクラウドソーシングのベンチマークプラットフォームです。このプラットフォームでは、ユーザーは2つの匿名のモデルと同時に対話し、両方に同じ質問をします。彼らは、投票後にモデルのアイデンティティが公開される前に、どちらのモデルが好ましい回答を提供したかに投票します。Chatbot Arenaを1か月間実行した後、約30Kの投票を集めました。このプラットフォームは事前定義された質問を使用しないため、ユーザーの多様な関心に基づいて野生での幅広い制限のない使用例と投票を収集することができます。プラットフォームのスクリーンショットは付録C.2で見ることができます。
https://scrapbox.io/files/65bca4d8f4ef290025b6f1ab.png
3 LLM as a Judge
当初の評価ではMT-benchとChatbot Arenaを使用して人間の評価に依存していましたが、人間の好みを収集することは費用がかかり、労力が必要です。これを克服するために、よりスケーラブルで自動化されたアプローチを開発することを目指しています。MT-benchとChatbot Arenaのほとんどの質問はオープンエンドで参照回答がないため、出力を評価するルールベースのプログラムを考案することは非常に困難です。出力と参照回答の類似性に基づく従来の評価指標(例:ROUGE 、BLEU)も、これらの質問には効果的ではありません。 LLMが改善され続けるにつれ、多くのタスクで人間のアノテーターを置き換える可能性を示しています。特に、LLMがチャットアシスタントの回答を効果的に評価し、人間の好みに合わせることができるかどうかに興味があります。次に、LLM-as-a-judgeの使用と限界について議論します。
3.1 LLM-as-a-Judgeのタイプ
私たちは、LLM-as-a-judgeの3つのバリエーションを提案します。これらは独立して、または組み合わせて実装することができます:
ペアワイズ比較
LLM審査員に質問と2つの回答が提示され、どちらが優れているか、または引き分けを宣言するよう求められます。使用されるプロンプトは付録のFigure 5に記載されています。
https://scrapbox.io/files/65bca58da63b140027e633b2.png
単一回答の採点
または、LLM審査員に単一の回答に直接スコアを割り当てるように依頼されます。このシナリオに使用されるプロンプトは付録のFigure 6にあります。
https://scrapbox.io/files/65bca5b58ca0a70024c880ea.png
参照による採点
特定のケースでは、参照解決策を提供することが有益な場合があります。数学の問題の採点に使用する例としてのプロンプトは、付録のFigure 8にあります。
https://scrapbox.io/files/65bca918aa4a200026d68a9f.png
これらの方法には異なる長所と短所があります。たとえば、ペアワイズ比較はプレイヤーの数が増えるとスケーラビリティが不足する可能性があります。なぜなら、可能なペアの数は二乗で増加するためです。単一回答の採点は、特定のペア間の微妙な違いを識別することができない可能性があり、絶対スコアは相対的なペアワイズの結果よりも変動しやすいため、結果が不安定になる可能性があります。特に、審査員モデルが変更された場合です。
3.2 LLM-as-a-Judgeの利点
LLM-as-a-judgeは、スケーラビリティと説明可能性の2つの主要な利点を提供します。これにより、人間の関与の必要性が減少し、スケーラブルなベンチマークと迅速なイテレーションが可能になります。さらに、LLM審査員はスコアだけでなく説明も提供するため、その出力はFigure 1に示されているように解釈可能です。
3.3 LLM-as-a-Judgeの制限
私たちは、LLM審査員の特定のバイアスと制限を特定します。しかし、後で解決策を提示し、これらの制限にもかかわらずLLM審査員と人間との間の合意が高いことを示します。
位置バイアスは、LLMが他のものよりも特定の位置を好む傾向を示す場合です。このバイアスは私たちのコンテキストに特有のものではなく、人間の意思決定や他のMLドメインで見られています。付録のFigure 11は位置バイアスの一例を示しています。
https://scrapbox.io/files/65bca9d6f4ef290025b75910.png
GPT-4は、オープンエンドの質問に対するGPT-3.5とVicuna-13Bの2つの回答を評価するように求められています。GPT-3.5の回答が最初に位置すると、GPT-4はGPT-3.5の回答をより詳細で優れていると考えます。しかし、2つの回答の位置を入れ替えると、GPT-4の判断は反転し、Vicunaの回答を好むようになります。
位置バイアスを分析するため、MT-benchの各最初のターンの質問に対して、温度0.7でGPT-3.5を2回呼び出して2つの類似した回答を作成しました。その後、2つの異なるプロンプトを使用して3つのLLMを試しました:「default」は付録のFigure 5にある私たちのデフォルトのプロンプトです。「rename」は、バイアスが位置か名前かを見るために、私たちのデフォルトのプロンプト内のアシスタントの名前を変更します。表2に示されているように、すべてのLLMが強い位置バイアスを示しています。ほとんどのLLM審査員は最初の位置を好みます。Claude-v1も名前バイアスを示し、「Assistant A」を好む傾向があります。「rename」プロンプトによって示されています。位置バイアスは非常に顕著であり、GPT-4だけが60%以上の場合で一貫した結果を出力します。
https://scrapbox.io/files/65bcab5792211a0025c35434.png
このテストは、回答が非常に似ていて、時には人間にも区別がつかないことがあるため、困難です。付録D.1で、位置バイアスがいくつかのケースで目立たないことを示します。
このバイアスの起源については、訓練データに根ざしているか、因果関係トランスフォーマーの左から右へのアーキテクチャに固有のものであると疑われますが、今後の研究としてより深い研究を残します。
冗長性バイアスとは、LLM審査員がより長く、冗長な回答を好むことです。たとえそれらが短い代替案と比べて明確でなく、高品質でなく、正確でなくてもです。
このバイアスを調査するために、MT-benchのモデル回答から「繰り返しリスト」攻撃を設計しました。まず、番号付きリストを含むMT-benchの23のモデル回答を選択します。次に、GPT-4に新しい情報を追加せずにリストを言い換えるように依頼し、言い換えられた新しいリストを元のリストの先頭に挿入して、不必要に冗長にします。例えば、元の回答が5項目を含む場合、新しい回答は10項目を含みますが、最初の5項目は元の5項目から言い換えられたものです。例は付録のFigure 12に示されています。
https://scrapbox.io/files/65bcac6b01601b00243f51a0.png
攻撃が成功した場合、LLM審査員は新しい回答が古い回答よりも良いと考えます。表3は、この攻撃の下でのLLM審査員の失敗率を示し、すべてのLLMが冗長性バイアスにかかりやすい可能性があることを示していますが、GPT-4は他のLLMよりもはるかに効果的に防御します。キャリブレーションとして、LLM審査員が同一の回答(つまり、2つの同一の回答に対して常に引き分けを返す)を正しく判断できることがわかりましたが、「繰り返しリスト」攻撃には合格できません。
自己強化バイアス。私たちは、「自己強化バイアス」という用語を社会認識文献から採用し、LLM審査員が自分自身が生成した回答を好む効果を説明します。
この効果を統計的に検討します。Figure 3(b)は、異なるLLM審査員と人間の下での6つのモデルの勝率(引き分けなし)を示しています。
https://scrapbox.io/files/65bcae49a63b140027e6e72c.png
人間と比較して、いくつかの審査員が特定のモデルを好むことが観察されます。例えば、GPT-4は自分自身を10%高い勝率で好み、Claude-v1は自分自身を25%高い勝率で好みます。しかし、他のモデルも好むことがあり、GPT-3.5は自分自身を好みません。限られたデータと小さな違いのため、私たちの研究では、モデルが自己強化バイアスを示すかどうかを判断することはできません。制御された研究を行うことは困難です。なぜなら、品質を変更せずに他のモデルのスタイルに合わせて回答を言い換えることは容易ではありません。
数学と推論の質問の評価における限られた能力
LLMは数学と推論の能力に限界があることが知られています。これにより、正しい答えを知らないため、そのような質問の評価に失敗します。しかし、より興味深いのは、解決できる基本的な数学の問題の評価にも限界があることです。例えば、付録のFigure 13では、GPT-4が初等数学の質問で誤った判断を下す例を示しています。
https://scrapbox.io/files/65bcb44c25232a0025d3cbe9.png
GPT-4が問題を解決できる(別に尋ねられた場合)にもかかわらず、提供された回答に惑わされ、最終的に誤った判断を下すことが注目に値します。このパターンは、付録の図14にある推論の質問の例でも見られます。GPT-3.5とClaude-v1も同様の弱点を示しています。セクション3.4では、そのような問題を軽減するための参照による方法を紹介します。
3.4 位置バイアスと数学問題の限定的な評価能力への対処
位置を入れ替える
位置バイアスは簡単な解決策で対処できます。保守的なアプローチとして、二つの回答の順序を入れ替えて審判を二度呼び、両方の順序で好まれた回答のみを勝利と宣言する方法があります。入れ替え後の結果が一致しない場合は、引き分けとします。もう一つの積極的なアプローチは、位置をランダムに割り当てることで、正しい期待を持って大規模に行うと効果的です。以下の実験では、保守的なアプローチを使用します。
位置バイアスベンチマークでの一貫性向上を、少数例を用いて評価します。MTベンチライクな問題、GPT-3.5とVicunaを使用して回答を生成し、GPT-4を使用して判断を生成します。例は3つのケースをカバーします:Aが良い、Bが良い、引き分け。表12(付録)に示すように、少数例審判はGPT-4の一貫性を65.0%から77.5%に大幅に向上させることができます。しかし、高い一貫性は高い精度を意味するとは限らず、少数例が新たなバイアスを導入するかどうかは不明です。さらに、長いプロンプトはAPI呼び出しを4倍高価にします。我々はデフォルトでゼロショットプロンプトを使用しますが、追加の研究を付録D.2に残します。
https://scrapbox.io/files/65bcb5900a7a1a00262a458e.png
セクション3.3で、LLMが数学と推論の問題を評価する能力に限界があることを示しました。この問題を軽減するために、二つの単純な方法を提案します:
CoT (Chain-of-Thought)は、LLMの推論能力を向上させるために広く使用されている技術です。我々は、審判LLMがまず独立して問題に答え、その後評価を始めるように促す同様の技術を提案します。詳細なプロンプトは付録のFigure 7にあります。 https://scrapbox.io/files/65bcb61976af0600249d554b.png
しかし、CoTプロンプトを使用しても、多くの場合、LLMは問題解決プロセスで与えられた回答と全く同じ間違いを犯します(付録の図15の例参照)。これは、LLM審判が文脈によって誤解される可能性がまだあることを示唆しています。したがって、参照ガイド付きメソッドを提案します。ここでは、最初にLLM審判の回答を独立して生成し、その後、審判プロンプトで参照回答として表示します。表4では、デフォルトのプロンプトに対して失敗率が70%から15%に大幅に改善しているのを見ます。
https://scrapbox.io/files/65bcb66392211a0025c43de9.png
アリーナデータにVicuna-13Bをファインチューニングして審判として機能させ、付録Fでいくつかの前向きな初期結果を示します。 3.5 マルチターン審判
MTベンチでは、各質問が会話能力を評価するために2ターンを必要とします。したがって、2つのアシスタントを比較する際には、合計2つの質問と4つの回答を提示する必要があり、プロンプトの設計が複雑になります。我々は2つの設計を検討します。(1)2ターンを2つのプロンプトに分割するか、(2)完全な会話を1つのプロンプトに表示するかです。我々の発見は、前者の設計では、LLM審判がアシスタントの前の回答を正確に特定するのに苦労する可能性があることです。付録の図16に示すケースでは、GPT-4が不適切な参照により不正確な判断を下しています。これは、LLM審判が文脈をよりよく把握するために、完全な会話を表示する必要性を示唆しています。次に、単一のプロンプトで2つの完全な会話を提示する代替設計を検討し、その中でLLM審判に2番目の質問に焦点を当てるように求めます(付録の図9参照)。このアプローチは、前述の参照問題を大幅に軽減することがわかりました。
https://scrapbox.io/files/65bcb6d20a7a1a00262a5f7b.png
4 合意評価
MT-benchおよびChatbot Arenaのデータセットで、異なるLLM審判と人間の間の合意を研究します。MTベンチでは、人間同士の合意も研究します。MTベンチは制御された人間の評価による小規模な研究を表し、Chatbot Arenaは野外でのクラウドソースされた人間の評価による大規模な研究を表します。 4.1 セットアップ
80の質問に対して、GPT-4、GPT-3.5、Claude-V1、Vicuna-13B、Alpaca-13B、LLaMA-13Bの6つのモデルで回答を生成します。そして、2種類の審判を使用します:LLM審判と58人の専門家レベルの人間のラベラー。ラベラーは主に大学院生なので、彼らは専門家と見なされ、平均的なクラウドワーカーよりも熟練しています。すべてのペアをLLM審判に評価させ、各人間に少なくとも20のランダムなマルチターン質問を評価させます。これにより、すべての質問に対して約3Kの投票が行われました。詳細なデータ収集プロセスは付録Cにあります。 30Kのアリーナデータからランダムに3Kのシングルターン投票をサンプリングし、GPT-4、GPT-3.5、Claude、Vicuna-7B/13B、Koala-13B、Alpaca-13B、LLaMA-13B、Dolly-12Bなどのモデルをカバーしています。2種類の審判を使用します:LLM審判と収集されたクラウド審判(2114個のユニークIP)。
指標
2種類の審判間の合意を、ランダムに選ばれた(ただし同一ではない)各タイプの個体がランダムに選ばれた質問に同意する確率として定義します。詳細は付録D.3に記載されています。平均勝率は、他の全てのプレイヤーに対する勝率の平均です。これらの指標は、引き分け票を含むか含まないかにかかわらず計算できます。
4.2 GPT-4と人間との高い合意
MT-benchデータで合意を計算します。表5では、GPT-4はペアワイズ比較とシングルアンサーグレーディングの両方で人間の専門家と非常に高い合意を示しています。 https://scrapbox.io/files/65bcb8ebc9a21b00251b886e.png
セットアップS2(引き分けなし)では、GPT-4と人間の間の合意は85%に達し、これは人間同士の合意(81%)よりも高いです。これは、GPT-4の判断が大多数の人間と密接に一致していることを意味します。また、GPT-4の判断が人間がより良い判断を下すのに役立つ可能性があることも示しています。データ収集中、人間の選択がGPT-4から逸脱した場合、GPT-4の判断を人間に提示し、それが妥当かどうかを尋ねました(詳細は付録C.1にあります)。
https://scrapbox.io/files/65cc2a1cc918ed00259ae617.png
異なる見解にもかかわらず、人間は75%のケースでGPT-4の判断を合理的と見なし、34%のケースで自分の選択を変更する意思があるとしました。
アリーナからのデータは同様の傾向を示しています。表6に示されているように、GPT-4と他のLLM審判を比較すると、人間との非引き分け合意率は似ていますが、GPT-4からの非引き分け票の数ははるかに多いです。これは、GPT-4がより肯定的で位置バイアスの影響を受けにくいことを意味しますが、他のモデルも肯定的な回答を出した場合はよく機能します。両方の表で、GPT-4はシングルアンサーグレーディングでペアワイズGPT-4と人間の好みに非常によく一致しています。これは、GPT-4が比較的安定した内部基準を持っていることを意味します。ペアワイズ比較よりもわずかに悪いパフォーマンスを示し、より多くの引き分け票を出すことがあるかもしれませんが、よりスケーラブルな方法です。
https://scrapbox.io/files/65bcc4805f39b000251b4554.png
次に、異なるモデルペアとカテゴリーで合意を計算することによるブレークダウン分析を行います。非引き分け票のみを含めます。Figure 2では、GPT-4と人間の間の合意が、モデルペアのパフォーマンスの不均衡(つまり、より大きな勝率差)に沿って徐々に70%からほぼ100%に増加することが観察されます。これは、モデル間に顕著なパフォーマンスの違いが存在する場合、GPT-4は人間とよりよく一致することを示唆しています。
https://scrapbox.io/files/65bcc4efdab02c0025f37ce0.png
4.3 異なる審判の下での勝率
MTベンチとChatbotアリーナで異なる審判の下でのモデルの平均勝率を、それぞれFigure 3とFigure 4にプロットします。
https://scrapbox.io/files/65bcc5475f39b000251b5091.png
https://scrapbox.io/files/65bcc55738f99b0025e88ead.png
LLM審判からの勝率曲線は、人間からの曲線と密接に一致しています。MTベンチの第二ターンでは、ClaudeやGPT-3.5のような独占的なモデルが、第一ターンに比べて人間により好まれており、マルチターンベンチマークがモデルのいくつかの高度な能力をよりよく区別できることを意味します。また、表7ではMTベンチがモデルをどのように区別するかを示すために、代表的なモデルのカテゴリー別勝率をリストします。
https://scrapbox.io/files/65bcc588ea5eb90025dac2ce.png
ここでは、GPT-4が他のモデルよりも顕著に優れていることがわかります。Vicuna-13Bは、推論、数学、コーディングのカテゴリーでGPT-3.5/4よりも顕著に劣っています。数学/コーディングのカテゴリーでは、GPT-3.5とGPT-4はいくつかの難しい質問に答えられなかったため、全体的な勝率は似ていますが、ペアワイズ比較またはシングルアンサーグレーディングでGPT-4はGPT-3よりも顕著に優れています。各カテゴリーでのMTベンチスコアのパフォーマンス分解については、付録D.4を参照してください。
5 人間の好みのベンチマークと標準化されたベンチマーク
MTベンチやChatbotアリーナのような人間の好みのベンチマークは、現在の標準化されたLLMベンチマークに貴重な追加となります。それらはモデルの異なる側面に焦点を当てており、お勧めの方法は、両方の種類のベンチマークを使ってモデルを包括的に評価することです。
LLaMAから派生したいくつかのモデルバリアントをMMLU、TruthfulQA 、およびMTベンチ(GPT-4審判)で評価します。トレーニングの詳細は付録Eに記載されています。セクション4.2で示されたように、GPT-4のシングルアンサーグレーディングもうまく機能するため、スケーラビリティとシンプルさを重視して、MTベンチにGPT-4のシングルアンサーグレーディングを使用します。GPT-4に各ターンごとに10点満点でスコアを付けてもらい、プロンプトテンプレート(図6、図10)を使用して、平均スコアを160 = 80×2ターンとして報告します。表8に結果が示されています。 https://scrapbox.io/files/65bcc810a6e5f20024336a0d.png
高品質な対話データセット(例えば、ShareGPT)での微調整により、MMLUでのモデルのパフォーマンスが一貫して改善され、微調整データのサイズとともに改善が拡大することがわかります。一方、小規模な高品質の会話データセットは、GPT-4(またはおおよそ人間)が好むスタイルをモデルに迅速に教えることができますが、MMLUを大幅に改善することはできません。これは、4.8Mトークンまたは3K会話のみでトレーニングされたVicuna-7B(選択)によって示されています。表8では、単一のベンチマークではモデルの品質を決定できないため、包括的な評価が必要です。我々の結果は、LLM-as-a-judgeを使用して人間の好みを近似することが非常に実現可能であり、将来のベンチマークにおいて新たな標準になる可能性があることを示しています。また、より多くのモデルを定期的に更新するリーダーボードもホスティングしています。特に、ダイナミックなデータ収集とベンチマーキングに特化した研究プラットフォームであるDynaBenchは、我々の精神と一致しています。DynaBenchは、飽和や過学習など、静的な標準化ベンチマークが抱える課題に対処し、人間参加型のダイナミックデータを重視しています。我々のLLM-as-a-judgeアプローチは、このようなプラットフォームを自動化し、スケールアップすることができます。
6 議論
限界
本論文は有用性を強調していますが、安全性はほとんど考慮されていません。正直さや無害さもチャットアシスタントにとって重要です。類似の方法をデフォルトプロンプトの変更により、これらの指標を評価するために使用できると予想されます。また、有用性の中には、正確性、関連性、創造性など複数の次元がありますが、この研究ではそれらすべてが単一の指標に組み合わされています。これらの次元を分析し、分離することによって、より包括的な評価が開発される可能性があります。セクション3.4でLLM-as-a-judgeの限界とバイアスに対処するための予備的な解決策を提案していますが、より進んだ方法が開発されることが予想されます。
データ収集と公開
付録Cでは、データ収集と公開プロセスの詳細が記述されており、ユーザーに与える指示、データ収集インターフェイスのスクリーンショット、参加したユーザーの情報、公開されたデータの内容が含まれています。社会的影響。この研究の社会的影響は多面的です。私たちの評価方法は、チャットボットの品質とユーザー体験を向上させるのに役立ちます。しかし、これらの方法のバイアスを対処することが重要です。私たちのデータセットは、人間の好みとモデルの振る舞いに関するより良い研究を可能にします。進んだチャットアシスタントは、特定の人間の仕事を置き換え、職の喪失と新しい機会を生み出す可能性があります。
今後の方向性
1)より広範なカテゴリーでのチャットボットの大規模なベンチマーキング
2)人間の好みと一致したオープンソースのLLM審判
3)オープンモデルの数学/推論能力の強化。
7 結論
本論文では、チャットボット評価のためのLLM-as-a-judgeを提案し、MTベンチの58人の専門家およびChatbotアリーナの数千人のクラウドユーザーからの人間の好みのデータを使用して、その効果を体系的に検証しました。私たちの結果は、強力なLLMが人間の専門家の間の合意レベルに匹敵する80%以上の合意率を達成できることを明らかにし、LLMベースの評価フレームワークの基盤を確立しました。